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摘要 : 


[ 目的】 对 已 有 专家 检索 与 专家 排名 方法 进行 评述 , 为 后 续 研 究 提 供 理论 基础 。[ 文献 范围 ] 从 Web of 


Science (WOS), CNKI 等 数据 库 中 分 别 以 “专家 检索 (Expert Retrieval)”"、“ 专 家 排名 (Expert Ranking)”、“ 排 名 融合 
(Ranking Fusion)” 等 为 检索 词 搜集 获得 相关 文献 65 篇 。[ 方法 ] 针对 专家 检索 覆盖 面 不 足 及 专家 特征 计算 量 大 两 
方面 问题 , 从 专家 检索 评测 和 排名 融合 两 个 角度 梳理 并 评析 现 有 的 研究 进展 。[ 结果 】 融 合 关系 属性 是 目前 专家 


检索 方法 的 主流 , 检索 结果 可 信和 度 研究 主要 依据 用 户 满意 度 和 文档 可 信和 度 开 展 ; 专家 排名 采用 友 邻 推荐 模型 、 


PageRank, D-S 理论 、 社 交 网 络 与 复杂 网 络 分 析 等 实现 排名 及 排名 融合 ， 融 合 结 


总 体 优 于 基准 排名 。[ 局 限 】 


不 同 排名 融合 方法 间 的 横向 对 比 研究 较 少 。[ 结论 ] 相 关 研 究 可 为 构建 信息 融合 视角 下 的 专家 会 诊 平 台 提供 参考 ， 
具体 体现 在 专家 信息 组 织 、 专 家 北 选 和 专家 意见 融合 环节 。 
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专家 检索 是 将 用 户 知识 需求 与 潜在 专家 特征 进行 
匹配 的 过 程 ,常见 的 环节 包括 : 用 户 知识 需求 表达 、 专 
家 特征 识别 、 知 识 需 求 与 专家 特征 相似 度 计算 以 及 候 
选 专家 结果 输出 等 , 但 考虑 到 用 户 知识 需求 (尤其 是 应 
急 知识 需求 ) 的 时 间 敏 感性 和 对 检索 结果 的 高 要 求 ， 目 
前 这 一 过 程 与 用 户 快 捷 高 效 的 要 求 并 不 匹配 ,造成 这 
一 现象 的 主要 原因 为 检索 系统 专家 类 型 覆盖 面 不 足 和 
专家 特征 识别 计算 工作 量 大 ,而 这 些 问题 在 社交 媒体 
时 代 尤 其 凸显 。 

专家 类 型 覆盖 面 不 足 主要 体现 为 :“ 小 众 专家 "是 社 
交 网 络 环境 下 衍生 的 专家 类 型 ， 其 现实 身份 与 虚拟 身 
份 可 能 存在 极 大 反差 , 但 他 们 直接 参与 到 网 络 公 共事 
件 发 生 、 发 酵 及 衰退 的 过 程 中 , 对 网 络 与 情 的 导 控 具有 


m} 


较 强 话语 权 ， 而 现实 公共 事务 咨询 并 没有 将 其 视 作 对 
传统 机 构 专 家 、 学 术 专 家 的 有 益 补充 ， 从 而 导致 专家 类 
型 覆盖 面 不 足 忆 因此 专家 信息 组 织 阶段 要 考虑 “小 众 
专家 ”作为 专家 库 的 组 成 部 分 , 这 样 才能 保证 检索 专家 
集合 覆盖 的 完整 性 ; 专家 特征 识别 计算 工作 量 大 主要 
体现 为 : 在 专家 特征 识别 之 前 进行 专家 排名 ,可 对 特征 
识别 对 象 进行 有 效 的 预选 ， 即 特征 识别 只 识别 综合 排 
名 较 高 的 专家 ， 而 由 于 专家 分 面 排名 选用 的 指标 多 为 
显 式 的 统计 指标 , 因此 可 大 大 降低 直接 进行 专家 特征 
识别 的 计算 量 。 在 之 前 的 研究 中 , 笔者 举例 作出 说 明 : 
假定 专家 检索 获取 专家 集合 容量 为 n, 与 某 一 专家 eX 
联 的 x 类 资源 量 为 qu, 对 应 专家 组 织 需 要 提取 的 特征 癌 


TOS Sq, ,获取 这 些 特征 向 量 后 至 少 还 需要 (2x-1) 次 
i-l 


融合 才能 获取 专家 综合 特征 向 量 。 而 排名 后 再 进行 特征 
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融合 只 需 依 据 决策 人 员 需 求 (假定 为 ” ren), 选取 排名 
比较 靠 前 的 若干 位 专家 (大 于 等 于 n) 进 行 专家 特征 提取 
和 融合 , 需要 提取 的 特征 向 量 个 数 只 有 原来 的 rn"! 
基于 两 方面 问题 分 析 , 笔者 以 WOS、CNKI 等 数 
据 库 为 文献 来 源 ,以 专家 检索 、 专 家 排名 和 排名 融合 
HERH, 尝试 从 专家 检索 方法 及 可 信和 度 评测 和 专家 
排名 融合 两 个 角度 挖掘 现 有 的 研究 方法 、 人 研究 方案 、 
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研究 工具 等 , 并 有 针对 性 地 做 出 适时 评析 ， 以 为 后 期 
解决 方案 的 衍生 提供 全 面 基础 的 参考 。 
2 专家 检索 与 专家 排名 研究 框架 


专家 检索 与 专家 排名 包括 两 种 理解 模式 : 一 种 是 
先 专家 排名 后 检索 模式 ， 另 一 种 是 先 检索 后 专家 排名 
模式 , 如 图 1 所 示 。 
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图 1 专家 检索 与 专家 排名 的 两 种 模式 


图 1(a) 和 图 1(b) 的 差别 是 将 专家 排名 融合 放 到 信 
息 组 织 阶 段 还 是 信息 检索 阶段 ， 这 种 差别 也 决定 了 最 
终 要 实现 的 目的 ,图 1(a) 面 向 单一 的 专家 检索 系统 ,期 
望 在 组 织 阶段 融合 多 分 面 下 专家 排名 值 ， 提 升 检 索 结 
果 的 准确 性 ， 弱 化 信息 噪声 ; 图 1(b) 面 向 多 专家 检索 
或 发 现 系统 ,鉴于 不 同系 统 获取 专家 排名 之 间 存 在 的 
冲突 , 提出 消解 冲突 获取 综合 排名 的 方法 趾 , 但 无 论 哪 
一 种 模式 , 专家 检索 与 排名 融合 关联 的 研究 主题 基本 
一 致 : 专家 检索 可 信和 度 评测 和 专家 排名 融合 。 后 续 内 
容 将 不 作 服 务 目的 界定 , 单纯 从 研究 主题 角度 评析 现 
有 的 研究 成 果 。 


3 ”专家 检索 方法 及 可 信和 度 评测 


为 了 更 好 地 利用 专家 资源 , 不 少 研究 者 都 在 积极 
构建 科技 咨询 系统 I、 专家 检索 系统 外 、 基 于 本 体 的 
专家 定位 系统 外 、FacFinder 专家 搜索 引擎 四 以 及 
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SmallBlue 专家 搜索 软件 等。 检索 系统 已 成 为 定位 
和 利用 专家 资源 的 重要 途径 ， 目 前 国内 三 大 学 术 数据 
库 (CNKI、 万 方 和 维普 ) 都 提供 学 者 或 专家 检索 入 口 ， 
但 数据 量 并 不 大 。 截至 2016 年 9 月 1 H, 万 方 共 收 录 
专家 12 120 位 , 且 专 家 信息 组 织 偏重 外 部 特征 ， 对 内 
容 特征 的 揭示 不 深 。 
3.1 专家 检索 方法 

已 有 的 专家 检索 研究 往往 与 通用 检索 模型 相 结 
fr, 按照 用 户 实际 需求 进行 适应 性 改造 和 创新 。 在 
之 前 的 研究 5 中 ,笔者 指出 专家 特征 信息 包括 两 部 
分 : 专家 属性 信息 和 专家 关系 信息 。 专 家 属性 信息 
揭示 专家 自身 特征 ,专家 关系 信息 源 于 专家 在 社交 
网 络 等 公共 平台 上 对 音频 、 视 频 、 文 本 、 网 页 等 资 
源 的 标注 ， 专 家 关系 信息 包括 关系 类 型 信息 、 标 签 
信息 、 关 系 强度 信息 等 1。 依 据 检索 算法 是 否 考量 
专家 关系 属性 ， 可 将 现 有 专家 检索 方法 分 为 : 融合 


关系 属性 的 专家 检索 方法 和 非 融合 关系 属性 的 专家 
检索 方法 。 

(1) 融合 关系 属性 的 专家 检索 方法 

自 2005 年 文本 检索 会 议 (TREC) 发 布 专家 搜寻 的 
实验 任务 以 来 ,相关 人 研究 者 围绕 相关 实验 数据 集 开展 
了 一 系列 探索 , 产生 了 一 批 有 影响 力 的 成 果 , 集中 体 
现 为 : Fang 等 ”认识 到 在 信息 检索 和 机 器 学 习 领 域 , 
判别 模型 (Discriminative Mode) 比 现在 应 用 较为 广泛 
的 生成 模式 (Generative Mode) 表 现 效果 更 好 ,因此 融 
合 文档 可 信和 度 及 文档 与 专家 关系 强度 ,设计 了 一 种 基 
于 判别 模型 的 专家 检索 方法 , 并 通过 TREC 提供 的 数 
据 集 , 证 明 该 方法 的 有 效 性 和 健壮 性 ; MacDonald U^! 
设计 了 基于 文档 可 信 度 的 专家 搜索 方法 : 给 定 检索 提 
问 , 检索 系统 首先 考虑 文档 与 检索 提问 的 相关 程度 ， 
对 同一 专家 的 不 同文 档 给 予 可 信 度 评估 ,再 依托 文档 
可 信和 度 差异 , 辅 以 查询 扩展 等 ,获取 专家 最 终 排名 ， 
并 通过 TREC2005 和 TREC2006 相关 数据 集 , 证 明 该 
方法 具有 较 好 的 性 能 表现 ; Zhai 等 所 带领 UIUC 团队 
参与 TREC 测试 ,并 设计 了 一 种 基于 语言 模型 
(Language Model) 的 专家 发 现 方法 , 而 Zhu 等 09 认 为 
专家 发 现 与 其 关联 文档 特征 的 揭示 完备 性 有 很 强 关 
系 , 而 已 有 的 语言 模型 没有 充分 考虑 到 这 些 特征 ， 故 
提出 了 一 种 整合 多 重文 档 特征 的 新 型 语言 模型 ， 并 以 
W3C 和 CSIRO(TREC) 为 数据 集 ， 证 明 该 方法 的 平均 准 
确 率 (Mean Average Precision, MAP) 比 原 语言 模型 方法 
要 高 。 

除 TREC 外 , 其 他 研究 者 也 做 出 了 很 多 典型 工作 : 
Uddin 等 ("设计 了 一 种 专家 搜索 方法 , 将 本 体 构建 
与 科研 社区 网 络 方法 相 结 合 , 利用 本 体 去 描述 科研 社 
区 网 络 中 节点 的 属性 及 关系 ,以 专家 相关 成 果 及 影响 
得 分 为 排名 依据 ; Zhou 等 5 发 现在 科研 问答 社区 专家 
发 现 过 程 中 , 采用 链接 分 析 方 法 易 忽 略 专家 兴趣 、 声 
望 等 , 提出 基于 主题 概率 模型 的 专家 发 现 方法 , 并 通 
过 扩展 PageRank 算法 证 实 该 方法 可 获得 优良 的 检索 
AUR; 王 雪 芬 等 所 认识 到 当前 专家 组 织 与 检索 过 程 中 
存在 的 问题 , 结合 社会 网 络 , 融合 专家 各 类 特征 信息 ， 
提出 较为 新 颖 的 专家 检索 技术 方案 ; Farhadi 等 中 从 社 
交 间 答 平 台中 发 现 ,用户 有 时 需求 的 专家 数量 不 止 一 
A, 而 是 一 个 专家 团队 ,为 此 设计 基于 共 现 中 和 素 类 
的 社交 网 络 专家 发 现 的 框架 : TeamFinder, 并 以 DBLP 
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为 数据 集 , 借助 作者 共 现 说 明了 框架 的 有 用 性 和 适用 
范围 ; Sun 等 请 鉴于 基于 图 检索 的 模型 没有 充分 考虑 
一 些 重要 的 上 下 文 信息 , 融合 专家 质量 及 专家 间 关 系 ， 
提出 一 种 新 颖 的 科研 社区 专家 发 现 方法 ,并 通过 实验 
证 实 所 提 方 法 相 较 基准 方法 具有 更 好 的 推荐 效果 ; 赵 
红 斌 等 P91 就 专家 识别 过 程 中 出 现 的 一 词 多 义 、 异 词 同 
义 、 专 有 名 词 等 自然 语言 分 析 问 题 , 构建 专家 专长 词 
表 来 辅助 专家 专长 识别 ， 有 效 地 提升 了 专家 检索 的 准 
确 率 ,并 以 武汉 大 学 教师 群体 为 例 , 构建 相关 原型 系 
统一 武汉 大 学 专家 检索 系统 WHU-ES。 

(2) 非 融 合 关 系 属性 的 专家 检索 方法 

相 比 融合 关系 属性 的 专家 检索 方法 的 多 样 性 , 非 
融合 关系 属性 的 专家 检索 方法 则 较 少 : Van Gysel 等 中 
完全 单一 借助 专家 文本 信息 ,引入 一 种 基于 无 监督 判 
别 模型 的 专家 检索 方法 ,， 对比 基于 向 量 空间 和 概率 生 
成 模型 的 专家 检索 结果 ， 发 现 该 方法 生成 专家 的 排名 
效果 明显 优 于 后 两 者 ; Yang 等 5 基于 普遍 的 共识 : 专 
家 所 具有 的 隐 性 知识 不 易 系 统 化 和 结构 化 , 搜寻 相关 
主题 专家 比 搜寻 知识 管理 系统 储存 的 知识 (Knowledge 
Management System,，KMS) 成 本 要 低 , 采纳 基于 改进 
型 Fuzzy Abstraction Hierarchy 框架 的 智能 专家 搜寻 方 
ik, 并 开发 了 相关 的 原型 系统 ; Stankovic 等 中 鉴于 目 
前 关联 数据 网 络 (Linked Data Web) 使 得 用 户 社交 行为 
可 追踪 和 现 有 专家 检索 使 用 单一 语 料 集 的 现实 情况 ， 
提出 利用 关联 数据 计量 分 析 方 法 ,选择 正确 的 跟踪 类 
型 和 专业 知识 假说 ,获取 准确 率 和 召回 率 较 高 的 关联 
专家 ; 方 错 r 和 武 浩 等 所 针对 专家 检索 在 科学 研究 、 
企业 管理 等 场合 的 重要 应 用 价值 , 对 专家 检索 的 研究 
目标 、 内 容 和 方法 进行 梳理 , 重点 归纳 了 专家 描述 、 
查询 主题 与 专家 关系 建 模 、 链 接 分 析 、 查 询 扩 展 和 专 
家 证 据 识别 等 主题 , 并 预 估 专 家 检索 未 来 将 切入 不 同 
应 用 场景 ,为 科研 团队 发 现 、 企 业 知 识 管理 等 提供 切 
实 帮 助 ; 陈 霄 吃 等 外 认识 到 目前 专家 寻找 的 方法 各 有 


合 已 有 专家 寻找 模型 的 融合 框架 , 并 通过 实验 证 明 该 
框架 可 有 效 提高 专家 寻找 的 精确 度 与 鲁 棒 性 。 

综 上 分 析 可 知 ， 目 前 专家 检索 方法 研究 倾向 于 融 
合 关 系 属性 的 专家 检索 方法 , 这 一 方面 源 于 社交 网 络 
媒体 的 飞速 发 展 , 男 一 方面 也 在 于 专家 关联 资源 的 日 
趋 多 源 。 综 合 多 渠道 信息 资源 提取 的 专家 特征 , 在 实 
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现 专家 信息 完备 的 同时 也 造成 了 较 大 的 信息 噪声 和 冲 
突 5， 因 此 专家 检索 不 仅 要 在 源头 上 强化 专家 信息 组 
织 方法 和 技术 , 还 要 针对 专家 关联 资源 设计 可 信 度 测 
评 机 制 ; 同时 由 于 专家 检索 存在 多 种 ExpertRank S: 
法 , 但 这 些 算法 只 是 将 检索 用 户 作 为 接收 检索 结果 的 
客体 , 没有 为 检索 用 户 设置 参与 算法 执行 的 变量 , 用 
户 自主 检索 功能 不 强 , 更 无 从 谈 及 个 性 化 专家 检索 。 
因此 , 专家 检索 研究 不 应 完全 将 重心 集中 于 通用 检索 
模型 的 改进 工作 ， 随 着 用 户 体验 在 检索 过 程 中 越 来 越 
受到 关注 , 专家 检索 输出 应 更 多 考虑 用 户 评分 及 关联 
资源 的 可 信 度 。 
3.2 ”专家 检索 可 信 度 评测 

基于 已 有 专家 检索 系统 获取 的 检索 结果 的 可 信 
E, 其 大 小 可 作为 结果 相关 度 判 断 的 标准 之 一 , 为 用 
户 接受 或 拒绝 检索 信息 提供 参考 。 前 期 专家 信息 有 效 
的 组 织 才 能 保证 后 期 专家 闭 选 过 程 的 科学 高 效 ， 如果 
说 专家 组 织 保证 了 遂 选 专家 即 信 源 的 可 信和 度 上 ”), 则 
在 专家 排名 1、 群体 决策 四 以 及 同行 评议 中 等 咨 
询 活 动 中 , 为 获取 高 效 统一 的 决策 , 围绕 专家 意见 或 
观点 所 应 用 的 方法 、 模 型 、 算 法 、 系 统 等 可 划 定 为 是 
对 信 源 内 容 所 做 的 可 信 度 评估 。 有 目前 可 信和 度 评估 研究 
的 对 象 主要 为 信息 资源 , 特别 是 网 络 信息 资源 , 这 主 
要 源 于 大 量 元 余 、 虚 假 和 模糊 的 信息 充斥 于 网 络 环境 
中 ， 而 专家 资源 作为 信息 资源 的 重要 组 成 部 分 ,其 采 
用 的 可 信和 度 评估 方式 主要 包括 两 类 : 基于 用 户 满意 度 
的 可 信 度 评估 和 基于 文档 的 可 信和 度 评估 。 

(1) 基于 用 户 满意 度 的 可 信 度 评估 

基于 用 户 满意 度 的 可 信 度 评估 主要 是 从 用 户 角度 
对 专家 检索 效果 进行 评估 , 可 以 是 系统 外 的 评估 ， 如 
通过 实验 法 、 问 卷 法 、 访 谈 法 等 获取 用 户 对 专家 检索 
系统 的 主观 印象 , 也 可 以 是 系统 内 评估 ， 如 用 户 根据 
自身 检索 需求 , 自主 设 定 检索 算法 中 参数 ， 从 而 达到 
改变 检索 进程 和 检索 结果 的 目的 , 而 检索 进程 的 改变 
可 以 始 于 信息 组 织 层面 , 也 可 以 施行 于 信息 检索 层 
面 。 李 纲 等 5 认为 用 户主 导 下 系统 内 信息 组 织 的 改变 
可 称 为 后 端 可 信 度 评估 , 系统 内 信息 检索 层面 的 改变 
可 被 称 为 前 端 可 信 度 评估 ,后 端 可 信和 度 评测 通过 最 佳 
专家 特征 向 量 目 长 的 求解 外 来 降低 检索 噪声 ， 前端 可 
信 度 评测 将 用 户 相关 性 反馈 作为 检索 路 径 选 择 的 必要 
参照 ; Kim 等 外 以 大 学 生 及 专家 为 访谈 对 象 ， 对 其 在 
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在 线 健 康信 息 搜寻 中 的 行为 进行 分 析 , 证 明 良 好 的 网 
站 外 观 和 导航 设计 有 助 于 用 户 获 得 较 好 的 检索 体验 ; 
Wu 等 在原 有 企业 搜索 服务 (包括 : 服务 提供 者 、 
检索 系统 和 服务 使 用 者 ) 中 引入 中 间 环 节 : 调和 企业 
搜寻 , 它 利用 领域 专家 经 验 知识 对 搜索 结果 进行 可 信 
度 分 析 , 最 后 再 推送 给 用 户 , 并 证 明 改 进 后 的 服务 有 
助 于 服务 开发 者 获得 长 久 的 投资 回报 和 提供 更 为 准确 
的 搜索 结果 ; Liebregts 等 “构建 了 一 个 大 学 专家 搜索 系 
统 ,以 科研 人 员 、 学 生 和 机 构 外 访问 者 为 检索 用 户 , 通 
过 提问 评测 证 实 该 系统 具有 不 错 的 系统 效率 、 检 索 效 
率 和 用 户 满意 度 ; Jefferson 等 外 提出 一 种 利用 信息 检 
索 技术 和 领域 专家 知识 来 改善 用 户 检 索 满意 度 的 方 
法 ,并 依托 该 方法 设计 了 带 有 智能 前 端的 原型 系统 ， 
评测 证 实 该 系统 检索 效率 要 高 于 传统 的 目录 系统 。 

(2) 基于 文档 的 可 信 度 评估 

基于 文档 的 可 信 度 评估 较 基 于 用 户 满意 度 的 可 信 
度 评估 更 为 客观 ， 主 要 研究 体现 为 : MacDonald 5506771 
指出 文档 排名 与 专家 排名 具有 很 强 的 关系 , 也 是 专家 
检索 效率 提升 的 重要 因素 , 并 通过 一 次 专家 检索 实验 
失败 的 原因 分 析 说 明文 档 可 信 度 评估 对 专家 检索 的 影 
响 ; Kim 等 中 | 发 现 目 前 多 数 自动 排名 系统 使 用 引用 关 
系 描述 网 络 文 档 的 相对 重要 程度 , 但 引用 关系 无 法 反 
映 用 户 评论 的 内 容 ， 即 只 是 单纯 的 计量 , 不 涉及 语义 
层面 , 为 此 设计 一 种 基于 特定 网 页 集合 自动 生成 专家 
团队 的 方法 , 依据 用 户 评论 可 信和 度 和 关联 网 页 集合 计 
算 每 位 专家 的 影响 力 权 值 ; Noll 等 指出 在 协同 标 
注 系统 中 发 现 指 定 主题 的 专家 , 决定 于 两 个 因素 : 一 
是 用 户 发 布 相关 的 质量 较 高 的 资源 ， 而 资源 质量 依赖 
用 户 的 标注 行为 ， 另 一 个 是 该 用 户 领先 其 他 用 户 关注 
或 识别 到 相关 资源 , 基于 此 设计 基于 图 模型 的 专家 发 
现 算 法 : SPEAR(Spamming-Resistant Expertise Analysis 
and Ranking), 并 以 Delicious(https:/ del.icio.us/) 网 页 、 
用 户 和 书签 为 数据 源 , 证 实 该 算法 在 大 众 分 类 网 站 中 
具有 良好 效果 。 

由 上 述 分 析 可 知 , 对 应 3.1 节 专 家 检索 方法 分 类 ， 
专家 检索 可 信 度 评测 方法 包括 两 类 : 基于 用 户 满意 度 
的 可 信 度 评估 和 基于 文档 的 可 信 度 评估 。 前 者 不 再 将 
重点 集中 于 通用 检索 模型 的 改进 工作 ， 而 是 更 多 考虑 
用 户 评分 , 甚至 为 检索 用 户 设置 参与 算法 执行 的 变量 ， 
提升 用 户 自主 检索 功能 ; 后 者 要 在 源头 上 强化 专家 信 


息 组 织 方法 和 技术 , 针对 专家 关联 资源 设计 可 信 度 测 
评 机 制 。 


4 专家 排名 融合 


专家 排名 是 对 专家 综合 影响 力 的 量化 , 但 利用 不 
同 资源 (如 学 术 网 络 、Web 资源 、 社 会 网 络 资源 ) 获 取 
的 专家 排名 不 一 定 一 致 ， 甚 至 可 能 存在 冲突 ,为 此 需 
要 将 基于 不 同 统计 指标 获取 的 专家 分 面 排 名 进行 融 
合 ,从 而 获取 专家 的 综合 排名 。 同 时 , 利用 简单 的 统计 
站 标 移 对 关联 主题 的 专家 进行 排名 ,还 可 以 起 到 专家 
预选 或 筛选 的 目的 , 大 大 减轻 专家 特征 融合 的 任务 
量 。 排名 所 用 的 统计 指标 可 来 自 个 人 信息 ， 如 发 文 量 、 
最 初 发 表 时 间 等 ,也 可 来 自 引 文 信息 , 如 H 指数 、 被 
引 频 次 等 ,但 无 论 哪 一 种 形式 的 排名 ， 为 实现 排名 融 
合 都 需要 进行 标准 化 处 理 。 其 实 多 数 专 家 检索 系统 ， 
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用 面 不 广 ， 只 能 满足 特定 的 学 术 需 求 , 在 这 些 方 法 中 
作者 间 的 合 著 关系 和 引用 关系 是 评 佑 专家 的 重要 
考量 内 容 ,为 此 提出 一 种 基于 灵活 数据 模式 日 主题 关 
联 的 共 PageRank 算 法 , 算法 将 引文 网 络 和 社会 网 络 上 
专家 与 主题 的 偏好 程度 作为 专家 排名 计算 的 依据 ; 詹 
镇 江 59 认 为 传统 的 专家 搜索 更 多 向 用 户 推送 相关 主题 
专家 的 专业 技能 ， 而 忽略 专家 与 用 户 之 间 的 关系 , 为 
此 提出 融入 用 户 社交 网 络 的 社会 化 搜索 方式 , 通过 用 
户 与 主题 的 相关 程度 及 用 户 在 网 络 中 的 影响 力 以 计算 
专家 排名 ,并 证 实 该 方法 在 友 邻 推荐 模型 (Friend 
Recommendation Model, FRM) 中 具有 和 较 好 的 应 用 效 
果 ; 张波 中 充分 考虑 用 户 发 布 过 的 微 博 内 容 和 用 户 之 
间 的 拓扑 关系 , 通过 引入 主题 模型 来 拓展 PageRank 算 
法 , 计算 用 户 在 各 个 主题 下 的 社交 影响 力 , 最 终 将 主 
题 社 交 影 响 力 和 内 容 相关 度 相 结合 来 给 出 较为 准确 的 


排名 已 被 设 定 在 检索 算法 中 。 目 前 , 该 主题 研究 主要 
围绕 专家 排名 及 排名 融合 方法 展开 。 
4.1 专家 排名 方法 

专家 排名 方法 研究 主要 体现 为 : Wu 等 中 描述 了 
一 种 基于 几何 框架 的 数据 融合 方法 , 将 来 自 不 同 检索 
系统 的 数据 表示 成 多 维 空间 的 一 个 点 , 通过 欧 几 里 得 
距离 (Euclidean Metric) 度 量 检索 结果 的 相似 度 ， 并 与 


已 有 融合 方法 作 比 较 , 证 实 该 融合 方法 更 为 准确 和 高 
效 ; Uddin 等 ("指出 专家 发 现 是 社交 网 络 研 究 的 重要 
主题 , 但 很 少 有 研究 从 语义 层面 来 对 此 进行 探讨 , 为 
此 提出 基于 本 体 的 专家 发 现 方法 , 通过 专家 对 主题 相 
关 文 档 的 贡献 和 专家 间 关 系 计算 专家 得 分 , 据 此 生成 
最 优 专家 排名 ; Wang 等 中 指出 企业 微 博 商务 管理 具有 
很 强 的 重要 性 , 尤其 是 在 社交 网 络 服务 日 益 发 展 的 今 
天 ,因此 结合 PageRank 算法 和 专家 标注 的 标签 , 设计 
企业 专家 排名 的 方法 ; Jin 等 站 指出 随 着 社交 网 络 日 益 
Wii, 寻找 解决 问题 的 专家 可 能 比 直接 搜索 答案 更 易 
实现 , 为 此 将 用 户 间 的 中 心 度 计算 、 提 问 与 用 户 之 间 
的 相关 性 加 总 在 一 起 ， 从 而 获取 用 户 需求 的 专家 排名 
结果 ; Moreira 等 9 鉴于 目前 学 术 数 字 图 书馆 仍然 缺乏 
一 种 有 效 的 融合 多 种 显 式 特征 的 专家 发 现 算法 ， 从 专 
家 关联 资源 的 上 下 文 、 专 家 个 人 信息 、 科 研 社区 中 基 
于 引 链 关系 形成 的 图 结构 出 发 , 构建 了 一 种 规范 化 的 
专家 融合 及 排名 方法 ,并 以 计算 机 科学 领域 为 例证 实 
了 该 方法 的 性 能 ; Wu 等 5 认为 已 有 专家 发 现 方法 使 


专家 定位 排名 ， 并 利用 新 浪 微 博 API 抓 取 的 实验 数据 
集 进 行 实验 , 证 实 了 该 方法 的 有 效 性 。 
42 排名 融合 方法 

除了 资源 多 样 性 为 排名 融合 提供 了 研究 空间 ， 既 
有 的 采用 单一 指标 的 排名 还 存在 最 终 排 名 结果 可 信 度 
不 强 、 排 名 不 一 致 、 排 名 冲突 等 问题 。 为 解决 上 述 问 
题 ， 图 书 情报 领域 衍生 出 学 科 内 的 一 套 方法 ,在 部 分 
研究 中 ,为 减少 数据 的 稀疏 性 ， 需 要 抽取 高 频 作者 以 
构建 关系 矩阵 ， 而 高 频 作 者 抽取 可 基于 阔 值 设计 的 主 
观 方法 ， 如 设 定 一 个 抽取 的 最 低频 次 , 也 可 根据 数据 
的 分 布 规律 ,如 符合 震 律 分 布 ， 则 可 使 用 普 赖 斯 公式 
来 提取 。 无 论 哪 一 种 方法 ， 目 前 都 不 人 够 完善 。 设 置 最 
低 闪 值 仅仅 是 为 了 满足 数据 分 析 的 需求 ， 缺 乏 训练 集 
的 支撑 ,而 且 无 法 解决 末端 数据 一 致 的 问题 , 同时 这 
也 是 排名 指标 要 多 源 的 一 个 重要 原因 ， 而 客观 提取 方 
式 又 对 数据 的 分 布 情况 具有 严格 的 要 求 。 

为 此 , 专家 排名 融合 研究 积极 借鉴 和 改造 不 同学 
科 领 域 (如 遥感 测绘 、 人 脸 识别 、 专 家 系统 等 ) 的 融合 
方法 ,如 Santos 等 9 通过 对 搜索 系统 WSEs 的 专家 搜 
索 模块 进行 调研 后 指出 : 用 于 专家 检索 的 文档 也 要 给 
予 一 定 可 信和 度 , 融合 已 有 的 专家 排名 指标 , 并 利用 
TREC 数据 生成 7 种 不 同 专家 排名 , 证 明了 融合 文档 
可 信和 度 的 专家 排名 在 企业 内 网 检索 过 程 中 获得 了 优良 
的 效果 ; MacDonald. 等 中 认为 专家 排名 可 以 采用 投票 
模型 来 解释 ,尝试 利用 11 种 数据 融合 技术 完成 专家 排 
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名 , 并 使 用 TREC 企业 相关 数据 集 , 证 明了 该 专家 排 
名 融合 方法 可 有 效 改 善 候选 专家 的 排名 ， 具 有 相对 稳 
定 的 检索 性 能 ; Mouráo 等 指出 医学 领域 多 源 异 构 
言 息 的 不 断 涌现 给 相关 检索 带 来 很 大 挑战 , 为 此 提出 
可 支持 多 维 数据 融合 、 词 表 荐 词 的 医学 信息 检索 系统 
构建 模式 , 实验 表明 新 的 融合 算法 可 有 效 改 善 已 有 的 
排名 融合 结果 ,搜索 效果 优 于 其 他 医学 检索 系统 ， 如 
2013 年 的 ImageCLEFMedical; Yang 等 (中 认为 随 着 信 
度 函 数理 论 (Belief Functions Theory) 识 别 框架 中 元 素 
数量 的 不 断 增 加 , 证 据 合 并 过 程 中 造成 的 计算 成 本 也 
会 不 断 增加 ,为 此 尝试 从 元 素数 量 和 Mass. 值 分 配 两 
个 角度 出 发 降低 计算 成 本 ,并 借助 相关 实验 及 分 析 证 
实 所 提 基 本 概率 分 配 (The Basic Probability Assignment) 
el dn 
名 方法 : 通过 多 源 数据 融合 算法 将 来 自 不 同 检索 系统 
的 相关 文档 合并 , 然后 选取 Top N 位 的 文档 作为 伪 相 
关 反 馈 的 实验 文档 , 通过 它们 去 评估 各 个 检索 系统 并 
获取 系统 排名 , 利用 TREC 数据 集 进 行 实证 分 析 , 发 
现 分 析 结 果 与 人 工 评估 结果 呈现 较 高 的 一 致 性 ; 
Franceschini 等 外 9 指出 在 多 准则 决策 与 社会 选择 理 
论 等 研究 领域 , 常常 由 于 不 同 代理 的 偏好 而 造成 备 选 
方案 的 顺序 不 一 致 ， 为 此 提出 了 一 种 新 型 的 融合 算法 : 
Ordered Paired-Comparisons Algorithm(OPCA), 算法 
包括 三 个 步骤: 首先 将 产生 的 多 代理 排名 转化 为 成 对 
比较 的 集合 , 然后 基于 一 定 的 优先 级 原则 融合 这 些 集 
fr. 最 后 获取 代理 人 重要 性 的 排名 , 生成 一 个 统一 的 
次 序 , 并 通过 实例 证 实 了 该 方法 的 融合 效果 ; Zhao S 
为 解决 社交 网 络 平台 中 个 性 化 标签 推荐 问题 , 提出 一 
种 新 型 的 服务 于 多 源 信息 的 排名 框架 GRoMO (Graph- 
based Ranking of Multi-type Interrelated Objects)， 该 框 
架 对 标签 标记 资源 与 用 户 标记 的 历史 记录 进行 分 析 ， 
通过 特定 的 推荐 算法 向 用 户 推送 排名 Top N 的 标签 ， 
FERMARE S Delicious 数据 进行 实证 分 析 , 证 
实 该 方法 效果 优 于 基准 方法 ， 且 随 着 数据 集 的 不 断 扩 
展 , 也 可 适用 于 资源 推荐 。 
4.3 排名 融合 研究 评析 

专家 排名 融合 包括 专家 排名 方法 及 排名 融合 两 部 
分 。 由 4.1 节 和 4.2 节 可 知 , 现 有 专家 排名 方法 具有 4 
方面 特征 : 

(1) 多 数 专家 排名 方法 将 专家 属性 特征 信息 与 
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关系 特征 信息 相 结合 , 采用 多 种 指标 作为 设置 排名 
的 参考 ; 

Q) 专家 排名 值 计 算 方法 则 不 一 而 足 ,， 包括 加 权 
平均 、 友 邻 推荐 模型 、 投 票 模 型 、PageRank、D-S HE 
论 、 社 交 网 络 与 复杂 网 络 分 析 等 ; 

Q) 排名 对 象 包 括 企业 专家 、 学 术 专家 和 社交 网 
络 专 家 ,其 中 社交 网 络 专家 研究 比较 广泛 , 源 于 围绕 
这 些 专家 节点 及 其 社交 行为 易于 构建 社会 语义 网 络 ， 
便于 通过 网 络 科学 理论 和 指标 进行 方法 设计 ; 

(4) 排名 效果 在 解决 排名 冲突 的 前 提 之 下 ,都 比 
基于 单一 指标 的 排名 方法 效果 要 好 , 但 由 于 排名 数据 
集 的 差异 , 改进 后 不 同 排名 方法 的 横向 比较 还 未 进行 
深入 的 探讨 与 分 析 。 


5 结 i& 


笔者 提出 已 有 专家 检索 中 存在 的 两 类 问题 : 一 是 
专家 覆盖 面 不 足 ; 二 是 专家 特征 计算 量 大 ,并 对 专家 
检索 方法 、 可 信 度 评测 与 排名 融合 相关 研究 成 果 进 行 
系统 梳理 和 评析 。 专 家 检索 评测 主要 围绕 专家 检索 方 
法 与 检索 可 信 度 评测 方法 展开 。 现 有 的 专家 检索 方法 
往往 在 通用 检索 模型 基础 上 加 以 改造 , 融合 关系 属性 
的 专家 检索 方法 是 该 主题 研究 的 主流 。 与 之 相对 照 ， 
专家 检索 可 信 度 评测 方法 也 包括 两 类 : 基于 用 户 满意 
度 的 可 信 度 评估 和 基于 文档 的 可 信 度 评估 , 前 者 注重 
用 户 评分 , 后 者 看 重 资源 质量 。 专 家 排名 融合 包括 专 
家 排名 方法 及 排名 融合 两 部 分 。 专 家 排名 方法 以 关系 
特征 为 主 , 属性 特征 为 辅 , 采用 加 权 平 均 、 友 邻 推荐 模 
型 、 投 票 模型 、PageRank、D-S 理论 、 社 交 网 络 与 复 
杂 网 络 分 析 等 方法 实现 排名 及 排名 融合 ,实证 结果 显 
示 改 造 后 的 排名 结果 总 体 优 于 基于 单一 指标 的 排名 结 
果 , 但 不 同 排名 方法 间 的 横向 对 比 研 究 则 较 少 。 

结合 各 个 研究 环节 的 成 果 及 笔者 正在 开展 的 研究 
工作 , 与 之 对 应 的 解决 方案 也 可 大 体 描述 为 : 融合 学 
术 资 源 、Web 资源 、 社 交 网 络 资源 共同 作为 传统 专家 
特征 识别 的 关联 资源 ,设计 加 权 平 均等 多 源 信息 融合 
方法 以 解决 专家 特征 融合 过 程 出 现 的 噪声 和 冲突 中 ， 
并 在 处 理 网 络 奥 情 事件 中 , 引入 “小 众 专家 ”构建 专家 
库 ; 结合 专家 检索 方法 与 排名 融合 算法 , 在 专家 检索 
之 前 通过 专家 分 面 排名 的 融合 既 可 提升 专家 信息 组 织 
的 准确 性 和 完备 性 外 ,也 可 通过 有 效 预 选 大 大 降低 特 


201711.02130v1 


chinaXiv 


征 计算 的 工作 量 ， 最 终 检 索 结果 可 通过 基于 文档 或 用 
户 满意 度 的 个 性 化 评测 算法 实现 二 次 反馈 ,从 而 改善 
专家 检索 的 可 信和 度 -”。 

结合 已 有 研究 现状 及 后 续 研 究 思 路 , 笔者 认为 专 
家 检索 与 排名 研究 将 呈现 以 下 发 展 趋势 : 

随 着 专家 关联 资源 的 日 趋 多 样 以 及 移动 社交 问答 
等 平台 的 涌现 , 现 有 专家 定义 的 外 延 将 被 进一步 拓展 ， 
互联 网 环境 下 的 “小 众 专 家 ”将 愈 发 活跃 , 传统 机 构 专 
家 、 技 术 专 家 与 “小 众 专家 ”的 交集 将 越 来 越 大 。 

资源 多 样 势必 带动 多 源 信息 融合 , 专家 特征 信息 
由 合 过 程 要 重点 解决 两 类 问题 : 信息 噪声 和 信息 冲突 ， 
围绕 它们 进行 算法 、 模 型 等 改进 或 创新 工作 将 是 专家 
仿 索 与 排名 研究 未 来 发 展 的 主要 趋势 ， 进 而 带动 专家 
检索 个 性 化 、 语 义 化 和 精准 化 服务 水 平 的 提升 。 
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Abstract: [Objective] This paper reviews the expert retrieval and expert ranking literature to provide theoretical 


foundations for future studies. [Coverage] 65 papers were retrieved from the Web of Science (WOS), CNKI and other 


databases using the keywords of “expert retrieval", “expert ranking", and “ranking fusion”. [Methods] We analyzed 


research evaluating expert retrieval and fusion rankings, aiming to solve the issues of insufficiency of expert coverage 


and heavy computation of expert features. [Results] We found that most expert retrieval system adopted the relationship 


attribute fusion method, and the credibility of search results was decided by the users’ satisfaction and quality of the 


retrieved documents. Expert ranking was established by FRM, PageRank, D-S theory, social network and complex 


network analysis. Empirical research showed that the fusion ranking results were generally better than the baseline ones. 


[Limitations] More comparison of research among different ranking methods was needed. [Conclusions] Related 


studies help us building expert consulting platform from the perspective of expert information organization, expert 


selection and expert opinion fusion. 
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